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不 确定 性 数据 中 基于 GSO 优化 MF 的 模糊 关联 规则 挖掘 方法 
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摘 要 : 针对 不 确定 性 数据 中 模糊 关联 规则 的 挖 据 问 题 ， 提 出 一 种 基于 群 搜索 优化 (GSO) 算 法 优化 隶属 度 函 数 (ME) 的 
模糊 关联 规则 挖 据 方 法 。 首 先 ， 将 不 确定 性 数据 通过 三 元 语言 表示 模型 进行 表示 ; 然后 ， 给 定 一 个 初始 ME， 并 以 最 大 
化 模糊 项 集 支 持 度 和 语义 可 解释 性 作为 适应 度 函 数 ， 通 过 GSO 算法 的 优化 学 习 获 得 最 佳 MF; 最 后 ， 根据 获得 的 最 佳 
MF， 利 用 改进 型 的 FFP-growth 算法 来 从 不 确定 数据 中 挖掘 模糊 关联 规则 。 实 验 结果 表明 ， 该 方法 能 够 根据 数据 集 自 
适应 优化 MF， 以 此 实现 从 不 确定 数据 中 有 效 地 挖 气 关 联 规则 。 
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Fuzzy association rules mining method based on GSO optimization MF in uncertainty data 
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Abstract: In order to solve the problem of mining fuzzy association rules in uncertainty data, this paper proposed a new method 


of mining fuzzy association rules based on optimization of membership function (MF) by group search optimization (GSO) 


algorithm. Firstly, it represented the uncertainty data by the 3-tuples linguistic representation model. Then, given an initial ME, 
© it obtained the best MF by optimizing learning of GSO algorithm with maximum Support of fuzzy itemsets and semantic 
\ interpretability as a fitness function. Finally, it used the improved FFP-growth algorithm to mine the fuzzy association rules 
from the uncertain data according to the best MF obtained. Experimental results show that this method can adaptively optimize 
MEF based on data set, so as to effectively mine association rules from uncertain data. 

Key words: fuzzy association rule mining; uncertainty data; membership function; group search optimization algorithm; FFP- 


growth algorithm 


的 性 能 与 MF 的 位 置 密切 相关 ， 给 定 的 MF 不 能 适应 环境 的 变 
且 事 先决 定 最 合适 的 MF 很 难 做 到 。 
关联 规则 表示 数据 库 项 目 之 间 的 依赖 关系 ， 已 广泛 应 用 于 为 此 ， 研 究 一 种 能 够 从 不 确定 数据 库 中 进行 自 适 应 学 习 的 
众多 领域 中 ， 如 市 场 分 析 、 入 侵 检测 、 诊 断 决 策 以 及 电信 和 领域 ”方法 ,获得 一 组 合适 的 MF 来 挖掘 FAR, 将 会 具有 重要 的 意义 。 
0。 然 而 真实 的 数据 库 通 常 具有 不 确定 性 。 不 确定 性 包含 概率 前 ， 自 动 优化 MF 的 方法 主要 分 为 两 种 ， 一 种 是 基于 神经 网 
性 和 不 完整 性 数据 户 。 如 何 有 效 地 从 不 确定 性 数据 库 中 挖掘 事 ” 络 学 习 的 优化 方法 ， 如 常用 的 RBF 神经 网 络 四 。 然 而 ， 基 于 神 


0 引言 


物 之 间 的 关系 已 成 为 一 个 主要 研究 方向 。 经 网 络 的 方法 需要 大 量 的 可 靠 训 练 样本 ， 在 实际 应 用 中 ， 获 得 

近年 来 ， 许 多 研究 人 员 提 出 了 挖掘 模糊 关联 规则 (fozzy ”不同 MF 下 的 规则 挖掘 样本 比较 困难 。 第 二 种 是 利用 一 些 智 能 
association rule，FAR) 的 方法 B49, 用 来 扩展 可 能 的 关系 类 型 ，" 粤 索 算 法 来 调整 模糊 系统 中 的 MFB&9， 如 ， 蚁 群 算法 、 遗 传 算 
便于 在 语言 学 方面 对 规则 进行 解释 辐 。 从 不 确定 性 数据 库 中 挖 法、 粒子 群 算 法 等 。 在 多 种 智能 优化 算法 中 , 群 搜索 优化 (group 


气 FAR 需要 设计 能 够 处 理 不 精确 数据 的 算法 。 例如 , 文献 [6] 使 search optimize, GSO) 算 法 具有 很 强 的 全 局 搜索 能 力 , 对 于 函数 
用 不 确定 性 的 可 能 表示 法 从 不 确定 数据 中 挖掘 FAR， 其 可 以 应 化 问题 有 明显 优势 。 但 是 ， 若 直接 采用 这 些 算 法 从 搜索 空间 
对 数据 以 区 间 和 模糊 值 作为 输入 。 但 是 该 方法 假定 隶属 度 函 数 中 寻找 最 优 MF, 优化 时 间 较 长 。 对 此 , 可 通过 一 些 新 的 语言 规 
(membership function, MF) 是 事先 已 知 的 , 但 模糊 关联 规则 挖掘 则 表示 模型 来 降低 优化 时 间 。 例 如 , 文献 [10] 提 出 了 一 种 新 的 语 
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言 规则 表示 模型 来 进行 MF 的 调整 。 这 个 新 的 模型 是 基于 三 元 
语言 表示 的 ， 它 通过 仅 考虑 两 个 参数 来 支持 语言 学 术语 的 横向 
位 移 和 支持 度 变 化 。 该 方法 能 够 通过 调整 MF 来 获得 高 度 的 数 
据 履 盖 ， 并 且 减 少 经 典 挖掘 方法 的 搜索 空间 。 

鉴于 上 述 分 析 ， 本 文 将 三 元 语言 表示 法 与 GSO 算法 相 结 
合 , 利用 三 元 语言 表示 法 来 降低 算法 搜索 空间 , 使 GSO 算法 能 
够 快速 寻 优 MF。 为 此 提出 了 一 种 新 的 不 确定 数据 模糊 关联 规 
则 挖掘 算法 ， 从 不 确定 数据 库 中 学 习 合 适 的 MF ， 并 挖掘 高 效 
的 FAR。 本 文 方法 主要 的 创新 点 如 下 : 
a) 为 了 能 够 获得 最 合适 的 MF， 本文 基于 三 元 语言 表示 模 
型 和 GSO 算法 进行 MF 的 学 习 优 化 , 最 大 化 模糊 支持 度 和 可 解 
释 性 度量 , 以 此 用 来 减少 搜索 空间 并 保持 MF 的 语义 解释 能 

b) 为 了 减少 挖掘 时 间 ， 本 文 还 提出 了 一 种 新 的 数据 挖掘 
(DM) 算 法 : 不 确定 模糊 频繁 模式 增长 算法 (uncertair- FFP- 
growth，U -FFP-growth )。 即 利用 学 习 到 的 MF， 从 不 确定 数 
据 库 中 有 效 地 挖掘 FAR。U-FFP-growth 算法 是 模糊 频繁 模 
式 增长 算法 (FFP-growth) 的 扩展 ， 用 来 从 不 确定 数据 中 挖掘 模 
糊 关 联 规则 且 不 需要 生成 候选 项 集 。 


1 “提出 的 模糊 规则 挖掘 方法 框架 


本 文 提出 了 一 种 从 不 确定 数据 中 基于 隶属 函数 (MF) 学 习 
的 模糊 关联 规则 (FAR) 挖 掘 算法 ， 称 为 U-MFL-FAR 。 

提出 的 方案 包括 两 个 阶段 : 首先， 基于 三 元 语义 表示 模型 
和 GSO 算法 进行 优化 学 习 来 获得 MF， 最 大 化 模糊 项 集 的 模糊 
支持 度 和 MF 的 解释 性 ， 然 后 ， 对 FFP-growth 算法 进行 扩展 ， 
使 其 能 够 基于 优化 后 的 MF, 从 不 确定 数据 中 挖掘 有 用 的 FAR。 
提出 方法 的 框架 如 图 1 所 示 。 


预定 义 基于 G6S0 算 法 
MP 的 MF 学 习 优 化 
阶段 1 
ME 学 习 
优化 
适应 度 评估 
基于 U-FFP-growth 
视 咕 风 的 规则 挖掘 
挖掘 


模糊 关联 规则 
图 1 提出 的 不 确定 性 数据 模糊 关联 规则 挖掘 方法 框架 


2 ”三 元 组 语言 表示 模型 


在 模糊 系统 的 框架 中 ， 主 要 采用 的 是 三 角形 MF。 可 通过 
优化 方法 对 其 中 三 个 参数 进行 细 化 ， 这 三 个 参数 确定 了 与 数据 
标签 相关 的 MFIN。 然而 在 存在 多 变量 问题 的 情况 下 , MF 之 间 
的 依赖 关系 和 三 个 参数 之 间 的 依赖 关系 会 导致 优化 模型 需要 处 
里 非常 复杂 的 搜索 空间 ， 影 响 了 优化 性 能 9。 
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在 文献 [10] 中 提出 了 一 种 基于 三 元 组 语言 表示 方法 的 新 的 
规则 表示 模型 。 该 方案 考虑 两 个 参数 和 ， 分别 表示 标签 的 
横向 位 移 和 支持 度 变化 。 这 样 ， 每 个 语言 术语 可 以 由 一 个 三 元 
组 (s,Q,) 表示 。 其 中 Q 是 区 间 [-0.5,0.5) 内 的 一 个 数 ， 这 使 得 
可 以 对 标签 进行 横向 位 移 , 直到 达到 两 个 相 邻 标签 距离 的 50%; 
也 是 一 个 在 [-0.5,0.5) 范 围 内 的 数字 ， 这 使 得 可 以 增加 或 减少 
标签 的 支持 度 ， 直 到 其 为 原始 大 小 的 50%。 例 如 ， 图 2 显示 了 
一 个 由 三 元 组 表示 的 标签 % = (9 ,-0.3,-0.25) 以 及 相应 MF 
的 横向 位 移 和 支持 度 变化 。 


| ~ 
0.5 -0.5 -0.5 0.5 


图 2 ”标签 5, 的 横向 位 移 和 支持 度 变 化 

这 种 新 的 规则 表示 模型 允许 通过 学 习 各 自 的 横向 位 移 和 支 
持 度 变 化 来 调整 MF， 从 而 可 以 有 效 减 小 搜索 空间 。 

考虑 一 个 简单 的 挖掘 问题 ， 其 中 包含 与 语言 术语 有 关 的 两 
个 变量 ( Age 和 Height )。 基 于 这 个 定义 ， 经 典 的 FAR 和 三 元 
组 模糊 语言 表示 的 FAR 分 别 为 : 

经 典 FAR : if Age 是 小 的 ，then Height 是 小 的 。 

三 元 组 模糊 语言 表示 的 FAR: if Age 是 (Low,0.1,0.1)， 
then Height 是 (Low,0.1,—0.1) 。 


3 ”基于 GSO 的 隶属 函数 优化 


3.1 GSO 算法 
对 于 求解 优化 问题 , 启发 式 智能 算法 最 为 有 效 。 其 中 , GSO 
算法 包含 三 个 操作 , 即 发 现 者 操作 、 搜 索 者 操作 和 游荡 者 操作 。 
在 迭代 过 程 中 ， 将 具有 最 佳 适应 度 值 的 成 员 选 为 发 现 者 。 将 适 
应 度 值 高 于 阔 值 的 多 个 成 员 选 为 搜索 者 ， 将 适应 度 值 低 于 阔 值 
的 多 个 成 员 选 为 游荡 者 。 
a) 发 现 者 操作 : 
发 现 者 操作 过 程 中 ,动物 旋转 感官 受 体 从 环境 中 捕获 信息 。 
在 3 维 搜索 空间 中 , 第 z 个 搜索 回合 (迭代 ) 的 第 个 成 员 的 位 置 
表示 为 ye R', 搜索 角度 表示 为 做 = (人 MD)ER ， 
对 应 的 搜索 方向 表示 为 ( 欠 )=( 译 ,…, 友 )e R”， 其 可 以 
通过 极 坐标 变换 根据 4 计算 得 到 ， 表 达 式 如 下 : 
让 = 于 cosop 
pi1 
fy Sin(4ojD) * fa; 
fi = sin(Nic; »); 
假设 在 第 z 次 迭代 处 的 发 现 者 位 置 为 y, ， 那 么 发 现 者 将 


会 在 当前 位 置 选 择 三 个 不 同 的 角度 进行 视觉 扫描 ， 即 首先 以 零 
度 扫描 ， 然 后 向 右边 扫描 ， 再 向 左边 扫描 。 设 定 视觉 的 最 大 搜 


(D) 


长 
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索 角 度 为 02,,、， 视 觉 扫描 的 最 大 距离 为 di ， 表 达 式 如 下 : GM3M =3/56:y:p (11) 
中 从 度量 标准 ， 分 别 表示 ME 的 位 
二 (元 0) 其 中 : 6 、Y 和 P 为 三 个 互补 的 度 ts 分 别 表 示 的 位 
局 移 (5 )、MEF 的 横向 支持 度 (7 ) 和 MEF 的 面积 相似 度 ( PP )。 
其 中 : U， 和 工分 别 为 设计 变量 取 值 范围 的 上 界 和 下 界 。 如 果 模 糊 项 集 的 支持 度 大 于 用 户 定义 的 最 小 支持 度 闪 值 
那么 ， 发 现 者 通过 扫描 所 发 现 的 三 个 不 同位 置 表示 如 下 : (minSup ), 则 认为 是 模糊 项 集 。 模糊 项 集 x 的 支持 度 定 义 如 下 : 
count(x) 
yoo = yp + rdrax ty (4 ) SUupport(x) = 
7 四 
map = 力 十 HI (4 + | (3) count(x) = 》 4,1) 
- teT 
Wn 其 中 : | 了 | 为 数据 库 了 中 的 例子 数量 ，/4(?) 为 例子 1 与 项 集 x 
的 匹配 程度 。 
其 中 : yy 表示 零度 扫描 ; yigm 表示 右边 扫描 ; yer 表示 左边 3.3 ”举例 分 析 
扫描 ; eR' 为 均值 为 0、 方 差 为 1 的 正 态 分 布 随 机 数 ， 本 文 考 虑 一 个 精确 的 数据 库 了 和 一 个 不 精确 的 数据 库 丰 ， 
eR” 为 (0,1) 内 的 一 个 随机 序列 。 到 中 包含 了 区 间 值 混合 和 模糊 的 例子 。 两 者 都 有 两 个 变量 
然后 ， 计 算 发 现 者 搜索 到 的 三 个 新 位 置 的 适应 度 ， 并 移动 (Age 和 Height ) 和 三 个 例子 。 表 1 和 2 显示 了 这 些 数据 库 的 


到 具有 最 优 适应 度 的 位 置 。 如 果 新 位 置 都 不 如 当前 位 置 ， 则 将 例子。 
其 头 转向 一 个 新 角度 ， 表 示 如 下 : 
A = A + py (4) 


表 1 精确 数据 库 T 的 三 个 例子 


ID Age Height 
其 中 ;sw 表示 最 大 转向 角 。 如 果 在 4 次 迭代 结束 后 ， 发 现 者 
没有 找到 一 个 更 好 位 置 ， 则 停止 搜索 过 程 且 保持 不 动 ， 即 
je (5) L, 22 1.80 
b) 搜 索 者 操作 : 记 22 1.82 
搜索 者 操作 为 跟随 发 现 者 , 并 在 其 周围 附近 区 域 进行 搜索 。 
在 第 z 次 迁 代 处 ， 第 个 搜索 者 根据 发 现 者 共享 的 位 置信 息 执 表 2 不 精确 数据 库 字 的 三 个 例子 
行 区 域 搜索 3， 其 位 置 更 新 如 式 6) 所 示 。 2 a Hotan 
2 和 十 万 (yp — Yi) (6) i 三 角 模糊 集合 
其 中 : he R, 表 示 (0,1) 区 间 内 的 随机 数 。 (1.77;1.79;1.89) 
o) 游 荡 者 操作 : bh 20~26 之 间 1.80 
游荡 者 操作 仅 为 随机 游 走 ， 并 以 此 来 探索 新 位 置 。 如 果 将 22-23 之 间 1.80~1.83 之 间 
群 中 第 i 个 成 员 选 为 第 z 次 迭代 的 游荡 者 ， 则 它 将 生成 一 个 随 
人 将 一 个 清晰 的 例子 + 与 一 个 模糊 的 例子 了 之 间 的 相 容 程度 
NW = + yn (7) ”定义 为 构成 每 个 例子 的 变量 成 对 值 之 间 的 相 容 性 的 最 小 值 。 如 
同样 ， 也 会 选择 一 个 随机 距离 ， 表 示 如 下 : 果 数 字 不 属于 间隔 区 间 ， 则 数字 与 间隔 的 兼容 性 为 0， 否 则 为 
d =a: rd (8) 1 .清晰 数 与 模糊 集 之 间 的 相 容 性 是 模糊 集 在 清晰 数 上 的 隶属 函 
然后 ， 根 据 式 9) 移 向 一 个 新 位 置 : 数 。 例 如 ， 例 子 与 旭 、th 和 志 之 间 的 兼容 程度 为 
y= +dR (1") (9) Compatibility(t,,t) = min(l,0.9) = 0.9 
3.2 个 体 适应 度 评估 Compatibility(t,,t) = min(l, 0.9) = 0.9 (13) 
为 了 评估 GSO 中 的 个 体 C 的 性 能 ,适应 度 函 数 包含 了 MF Comatbiiyte Lyi 0 = 0 


的 最 大 化 模糊 项 集 支 持 度 和 语义 可 解释 性 。 


基于 这 个 定义 ， 精 确 数据 库 与 不 精确 数据 库 之 间 的 兼容 程 
其 成 对 示例 之 间 的 最 小 兼容 性 来 定义 。 例如, 数据 库 了 和 


fitness(C) = pe *GM3M (10) 度 
， 天 之 间 的 兼容 性 为 
其 中 : 工 为 C 中 基于 MF 获得 模糊 1- 项 集 的 集合 ; 


Compatibility(t ,ft ), 
Compatibility(T,T) = min| Compatibility(t,,b,), 


SUpport(x) 为 模糊 1- 项 集 X 的 支持 度 ; GM 3M 是 量化 MF 可 


解释 性 的 一 种 度量 。GM 3M 被 定义 为 三 个 度量 的 几何 平均 数 ， 和 (14) 
其 值 在 0( 可 解释 性 最 低 水 平 ) 和 1( 可 解释 性 最 高 水 平 ) 之 间 。 定 . 2 
义 为 0 = min(0.9,1.]) = 0.9 


本 文 考虑 模糊 1- 项 集 Xx = (Age,Young)，Young 标签 


{Fz 甘 口 工 
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录用 稿 
有 的 MF: 
1 X<20 
Myoune (X) 2—x/20 20<x<40 (15) 
0 X>40 
在 精确 的 数据 库 了 中 ， Xl 的 支持 度 可 以 计算 为 


SUDDO7 太 (0)=(0.5+0.9+0.9)13= 0.77，, 但 是 这 个 值 不 能 
在 不 精确 数据 库 中 计算 。 
当 一 个 不 精确 数据 库 由 模糊 值 例子 组 成 时 ， 该 项 外 
支持 度 就 是 一 个 模糊 集合 。 形 式 为 
Hrs) = sup {Compatibility(T,T)} (16) 


supportr (Xx)=v 


长 的 未 知 


其 中 ， 在 给 定 值 v 处 的 支持 度 的 MF， 可 表示 为 不 精确 数据 未 
与 精确 数据 库 了 之 间 的 最 大 兼容 怕 
果 问 题 被 首先 分 成 几 个 区 间 值 问题 , 则 支持 度 可 以 有 效 地 计算 。 
即 设 [11, 是 了 的 一 个 Cs。 ， 表 示 一 个 区 间 。 那 么 模糊 支持 的 


Qi 表示 为 以 下 


cut 


E， 即 supporty(X1)=V。 如 


区 间 : 
[support; (x)], = "| 
pA |te [1],} 


1- 项 集 x = (Height,Tall), 标签 Tall 的 


> min{ 人 lzs[] 


fef 


(17) 


例如 ,考虑 模 郊 
ME 如 式 (18) 所 示 。 


叶片 上 形成 的 冰 
{[0.15,0.25]/ 下 
+[0.75,0.85]/ 上 } 


叶 


—/ 


片 转速 
模糊 集 (1， 
3.3, 5.2) 


ID 


8 0.18/ 上 +0.85/ 下 


[5.35, 6.5] [4, 6.4] 


(1, 1.1, 2.8) 
单 起 见 ， 假 设 MF 包含 两 个 变量 ， 
开 示 。 


[6.9, 8.2] 


结 冰 与 速度 是 


[ws 


致 


2.5 
3 


6.1 7.5 
结 冰 和 速度 变量 的 MF 


设 | | 是 模糊 和 
明 ， 表 4 中 仅 收集 


| 


攻 4 的 平均 值 ， 区 间 。 为 了 简化 说 
不 同 分 区 中 每 个 变量 的 支持 度 的 平均 值 。 
假设 最 小 支持 度 为 0.2。1- 项 集 被 粗 体 显示 。 


令 


一 个 


已 是 


_ abs(5—6.1) 


down 二 0.88 
5=2.5 


(19) 


lel 


此 GM 3M 的 值 为 


0 x<1.50 GM3M = (op) =(0.88x1x1)’ =0.958 (20) 
Hran (Xx) (x—1.50) /0.40 20<x < 40 (18) ”那么 
1 x>1.90 | support(x) |=[0.47,0.612] +[0.205,0.56] +[0.22,0.315] 
21 
=[0.895,1.487] 1 
考虑 一 个 简单 的 例子 来 说 明 适 合 度 函 数 的 计算 。 考 虑 一 个 ”日 
呈 问 是 直 升 ; 成 的 六 与 转速 的 相关 性 1 
a Ae 0 | Fimess [= [0.895,1.487]x 0.958 = [0.857,1.426] (22) 
示 了 这 个 不 精确 训练 数据 库 的 例子 。 
表 3 ”这 个 数据 库 中 的 四 个 示例 
表 4 不 同 分 区 中 每 个 变量 的 支持 度 
万 结 冰 / 下 结 冰 /正常 结 冰 /上 速度 /下 速度 /正常 速度 /上 
1 [0.15, 0.252] 0 [0.75, 0.85] [0, 1] [0, 0.75] [0, 0.008] 
2 0 0 1 [0.82, 0.85] 0 [0.15, 0.18] 
3 0 [0.714,0.791] [0.14, 0.6] [0, 0.4] [0.41, 1] [0, 0.252] 
4 [0, 1] [0, 0.083] 0 0 [0, 0.428] [0.76,1] 
之 [0.15, 0.252] [0.714, 0.874] [1.895,2.45] [0.82,2.25] [0.41,2.178] [0.91,1.46] 
| supportz, | [0.03,0.312] [0.178,0.218] [0.472,0.615] [0.203,0.543] [0.102,0.544] [0.221,0.318] 


4 基于 FFP-growth 算法 的 FAR 挖掘 
在 这 个 阶段 , 将 上 述 优化 过 程 中 获得 的 最 优 MF 用 来 从 不 
确定 数据 中 挖掘 有 用 的 FAR。 为 了 避免 运行 时 间 过 长 ， 本 文 提 


出 了 一 种 新 的 数据 挖掘 算法 ， 即 基于 FFP-8rowth 算法 的 


U-FFP-8rowth ,用 于 从 不 确定 数据 库 中 挖掘 FAR。 该 算法 有 
效 地 利用 频繁 模式 树 结构 来 挖掘 规则 ， 以 避免 产生 大 量 候选 项 
集 和 数据 库 重 复 扫描 。 
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设置 个 体 的 适应 度 值 。 
9 初始 化 阔 值 元 。 
d) 生 成 下 一 代 发 现 者 、 搜 索 者 和 游荡 者 : 


考虑 一 个 不 确定 的 数据 库 产 ， 其 中 包含 了 | 下 | 个 案 
5 ={9 .8,} 是 从 优化 过 程 中 得 到 


ey 
= 


的 最 优 MF 集合 。 其 中 : 


"为 变量 数目 ; 5) = {51,…, 5 表示 第 7 个 变量 的 语言 标签 集 日 如 果 最 好 的 发 现 者 个 体 没 有 改变 ， 那 么 
合 ; Mm 为 语言 标签 的 数量 。 本文 将 对 FFP-g8rowth 算法 进行 扩 。 | 元 = 也 一 (Cu *7)。 
展 ， 使 其 能 够 从 包含 不 确定 数据 的 数据 库 中 挖掘 FAR。 过 程 如 中 如果 元 < 0 ， 重 新 构建 种 群 并 初始 化 阔 值 工 。 
Ee 外 如 果 没 有 达到 最 大 和 迭代 次 数 ， 转 到 步骤 d)。 
可 对 于 每 个 数据 对 1=1 .| 到 | ， 且 对 于 每 个 变量 “| 阶段 2， 从 不 确定 数据 中 挖 据 模 糊 关 联 规 则 。 


H 


六 =1,..n， 将 其 信和 久 (5 == 冲 ,.…, 疡 ,) 转换 为 模糊 集 使 用 该 组 最 好 的 MF， 通 过 扩展 的 FFP-8rowth 算法 ， 
.5 了 2 沙 目 i il9 "9 Vin 林 。 

b) 对 于 每 个 语言 学 术语 , 根据 式 (17) 计 算 其 模糊 支持 度 。 对 “| 人 给 定 的 个 确定 数据 库 中 挖 括 FAR。 
于 每 个 变量 j] ， 如 果 它 的 语言 项 的 横向 支持 度 高 于 或 等 于 。 5 。 实验 及 分 析 


minSup ， 则 它 将 被 添加 到 1- 项 集 的 集合 工 中 。 
5.1 不 确定 数据 库 
Oo) 创建 一 个 头 域 表 ， 对 工 按照 模糊 支持 度 进行 降序 排序 。 为 了 分 析 所 考虑 方法 的 性 能 , 本 文 使 用 了 一 个 真实 世界 的 
d) 根 据 排序 再 次 扫描 不 精确 的 数据 库 ， 并 根据 support 的 。” ”不 确定 性 数据 库 : Adult03。 选择 一 些 数据 构建 本 文 实验 中 的 数 
最 大 值 ， 建 立 模糊 的 频繁 模式 树 。 据 库 ， 其 中 案例 数量 为 5200， 数 据 中 总 变量 数量 为 130， 数 据 


6) 确定 每 个 项 集 的 模糊 支持 度 ， 并 产生 一 个 所 有 项 集 的 列 ”中 不 准确 的 变量 数量 为 100。 不 确定 数据 的 类 型 有 精确 值 ; 区 
用 来 验证 Supporti (x) > minSup 间 值 ， 一 组 可 能 的 值 ， 定 义 在 标签 集 上 的 概率 分 布 ， 标 签 上 一 
/ vy. UE 全 二 o A ey se | 

人 ) 从 每 个 项 集中 构建 所 有 可 能 的 关联 规则 。 为 了 实现 这 一 sn 

首先 从 每 个 -项 集中 生成 可 能 的 关联 规则 ， 其 中 g>2 ， “2 和 关 算法 和 参数 设置 


在 这 些 实验 中 , 本文 将 所 提出 的 方法 与 现 有 的 一 种 FAR 挖 

GD 表 示 为 掘 算 法 进行 比较 ， 即 文献 [6] 描 述 的 用 于 不 确定 数据 的 模糊 
A A A 一 六 ,天 = 9。 Apriori 挖掘 算 法 : 了 Apriori 。 为 了 从 不 确定 数据 库 中 获得 高 

然后 本 文 计算 规则 的 置信 度 ， 根据 用 户 确定 的 质量 的 FAR， 该 算法 OA 将 每 
ee i 两 种 方法 的 参数 如 表 5 所 示 。 对 于 本 文 方法 ， 选 择 了 在 

所 提出 的 用 来 从 不 确定 数据 中 优化 合适 MF 和 挖掘 有 用 多 数 情况 下 运行 良好 的 标准 通用 参数 ， es 其 他 方 


FAR 的 U-MFL-FAR 算法 总 体 过 程 如 算法 1 描述 。 
算法 1 U-MFL-FAR 算法 


法 的 参数 是 根据 相关 文献 中 建议 的 值 进行 设 定 。 
另外 ， 所 有 实验 中 每 个 数据 为 5 次 运行 的 平均 结果 。Adult 


输入 : 数据 库 中 的 初始 语言 分 区 是 由 五 个 语言 术语 组 成 ， 以 均匀 分 布 
一 个 包含 | 放 例 子 的 不 确定 数据 库 人 。 的 三 角形 MF 形式 构建 ， 这 些 都 是 由 系统 专家 预先 定义 。 
ee 
一 组 隶属 函 也 数 S ={S,.. 3 ,} ， ={s So 表示 第 大 算法 本 2 ee 
个 变量 与 模糊 分 区 关联 的 语言 标签 集合 。 Ce | 
Y=2、Q,,=7、minSup=0.3 和 
预定 义 的 minSup 。 FApriori | 0 
预定 义 的 minCony 。 minConf = 0.8 
P Si = 50 一 | 入 宁 ] 
用 于 近似 郊 (css ) 中 项 集 支持 度 的 切 制 数 。 CA 
GSO 算法 种 群 规模 N 。 度 4 = T/4 ， 最 大 搜索 角度 nax 
友 代 次 数 。 U-MFL-FAR | 和 /ga2 ,最 大 转向 角 J ws = 和 /202 ,党 
阅 值 率 7 。 
数 a = TIT 、minSup=0.3 和 
输出 ， 与 一 组 最 佳 MF 关联 的 模糊 关联 规则 。 和- ED 
minConf = 0.8 


阶段 1， 从 不 确定 数据 中 通过 优化 过 程 获得 最 佳 MF。 
a) 生 成 具有 N 个 个 体 的 初始 GSO 种 群 。 5.3 MF 学 习 过 程 中 wuw 的 影响 分 析 


b) 评 估 个 体 适应 度 。 对 于 每 个 个 体 : 
将 数据 库 中 的 每 个 不 精确 值 转换 为 模糊 外 
计算 每 个 模糊 1- 项 集 x 的 支持 度 。 


确定 是 否 属于 1- 项 集 。 


在 本 节 中 进行 了 一 些 实验 来 分 析 置 信 区 间 Q&, 对 MF 学 
习 的 影响 。 为 了 使 这 个 分 析 更 容易 解释 ， 表 6 显示 了 在 3 个 不 
同 的 w ， 值 5、7 和 9) 和 9 个 不 同 的 minSup 值 (0.1 到 0.9) 情 


况 下 的 实验 结果 。 其 中 :fitmess 是 适合 度 函数 的 值 ，Support 
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是 1- 项 集 的 平均 支持 度 ，GM 3M 是 可 解释 性 度量 值 ， 并 二 是 。” 随 着 切割 次 数 的 增加 而 增加 ， 但 在 9 次 切割 时 增加 量 较 低 ， 且 
生成 的 工 项 集 的 数量 。 需要 较 长 时 间 才 能 完成 。 因 此 ， 本 文 使 用 7 次 切割 ， 在 适应 度 
值 与 GM 3M 测度 之 间 取 得 了 很 好 的 平衡 。 


通过 分 析 获 得 的 结果 ,可 以 看 到 fitness 、Support 和 井 厂 


表 6 具有 不 同 Qi 和 minSup 值 下 本 文 U-MFL-FAR 中 MF 优化 的 结 


Cuts 


minSup pp 


=9 
Cuts 
|Fitness| | |Support| | GM3M |#L1 | |Fitness| | |Support| | GM3M | 类 |Fitness| |Support| | GM3M | #L1 
0.1 [6.9,27.3] | [7.1,34.0] 0.82 43 | [7.6,27.6] | [8.5,30.9] | 0.93 48 | [7.6,29.6] | [8.9,34.7] 0.94 50 
0.2 [4.2,25.8] | [4.2,28.4] 0.91 36 | [4.5,27.9] | [4.7,28.8] 1.0 36 | [4.5,28.1] | [4.5,29.3] 1.0 35 


[ 
03 | [4.4,11.2] | [4.4,17.1] | 0.78 | 24 | [4.8,12.4] | [7.8,20.1] | 0.84 | 27 | [5.1,12.8] | [8.0,24.5] | 0.86 | 28 
[ [ 


三 3S 0 =7 (24 


Cuts Cuts 


td 


04 | [1.3,12.5] | [1.3,13.1] | 0.93 | 15 | [1.5,13.9] | [1.6,14.1] | 10 | 16 | [1.5,14.0] | [1.7,14.0] | 1.0 16 
0.5 | [0.3,7.4] | [0.4,8.4] | 0.91 | 9 | [0.6,8.0] | [0.7,9.2] | 0.95 | 10 | [0.6,8.4] | [0.7,9.6] | 0.98 | 10 
0.6 | [3.2,6.1] | [3.2,6.9] | 0.83 | 9 | [3.8,7.1] | [4.9,9.2] | 0.89 | 12 | [3.7,7.2] | [4.9,9.5] | 0.90 | 1 
07 | [2.1,3.2] | [1.9,4.8] | 0.86 | 6 | [2.3,3.6] | [3.1,4.9] | 0.91 | 6 | [2.4,4.0] | [3.2,5.1] | 0.90 6 
0.8 | [2.2,2.8] | [2.8,4.8] | 078 | 6 | [2.4,3.2] | [3.6,4.9] | 0.84 | 6 | [2.2,3.3] | [4.0,4.8] | 0.85 
09 | [0.8,1.0] | [1.0,1.4] | 0.75 | 2 | [1.0,1.2] | [1.3,1.7] | 0.85 | 2 | [1.1,1.2] | [1.3,1.7] | 0.86 2 

5.4 挖掘 FAR 的 性 能 比较 据 中 挖掘 更 相关 的 FAR。 另 一 方面 ， 在 不 同 minSup 值 下 ， 


首先 ， 为 了 验证 本 文 MF 优化 过 程 的 有 效 性 ， 将 具备 MF UU-MFL-FAR 的 GM3M 量度 取得 了 很 好 的 值 ， 其 对 MF 的 
优化 (U-MFL-FAR ) 和 不 具备 ME 优化 (初始 MP) 的 挖掘 FAR 。 原始 形状 作 了 优化 调整 ， 并 保持 了 MF 在 合理 水 平 上 的 语义 解 
方法 进行 比较 ,结果 如 表 7 所 示 。 可 以 看 出 ,，U-MFL-FAR 给 。 释 能 力 。 而 基于 初始 模糊 MF 的 挖掘 中 ， 总 是 获得 GM3M 度 
出 的 适应 度 函 数值 比 初始 模糊 分 区 给 出 的 值 要 好 ， 在 平均 支持 。” 量 的 最 大 值 ， 这 是 因为 这 个 度量 致力 于 保持 MF 的 原始 形状 ， 
度 和 可 解释 性 度量 GM3M 上 也 取得 了 很 好 的 平衡 。 而 且 不 被 修改 。 
这 是 因为 MF 的 学 习 优化 使 本 文 可 以 更 容易 地 从 不 精确 数 
表 7 本 文 提出 的 U-MFL-FAR 挖掘 FAR 的 结果 


minSup U-MFL-FAR 初始 MF 
|Fimess| | |Support| | GM3M | #L | |Fimess| | |Support| | GM3M | #L 
0.1 [7.6, 27.6] [8.5, 30.9] 0.9 48 [7.4, 25.5] [7.4, 25.5] 1.0 39 
0.2 [4.5, 27.9] [4.7, 28.8] 1.0 36 [4.1, 26.0] [4.1, 26.0] 1.0 32 
03 [4.8, 124 | [7.8,20.1] 0.6 27 | [3.5,8.2] [3.5, 8.2] 1.0 15 
0.4 [1.5, 13.9] | [1.6,14.1] 1.0 16 | [1.5,133] | [1.5,13.3] 1.0 11 
0.5 [3.8, 7.1] [4.9, 9.2] 0.8 12 | {2.3,4.6] [2.3, 4.6] 1.0 6 
0.6 [0.6, 8.0] [0.7, 9.2] 0.9 10 [0.2, 5.7] [0.2, 5.7] 1.0 6 
0.7 [2.3, 3.6] [3.1, 4.9] 0.7 6 [0.8, 1.7] [0.8, 1.7] 1.0 4 
0.8 [2.4, 3.2] [3.6, 4.9] 0.7 [0.8, 1.2] [0.8, 1.2] 1.0 3 
0.9 [1.0, 1.3] [1.3, 1.7] 0.7 2 [0.7, 1.2] [0.7, 1.2] 1.0 2 
然后 , 将 本 文 方法 与 TApriori 方法 在 挖掘 FAR 性 能 方面 0.6 14 7 4 
进行 比较 ， 结 果 如 表 8 和 9 所 示 。 表 8 和 9 分 别 显示 了 当 加 ， 1 
minConf =0.8 且 minSup 为 不 同 值 时 和 minConf 为 不 同 值 0 2 0 0 
且 minSup =0.3 时 ， 算 法 得 到 的 规则 的 数量 ， 其 中 也 包含 了 使 表 9 不 同 minConf 值 下 ， 各 种 算法 获得 规则 的 数量 
用 初始 模糊 MF 获得 的 规则 。 (minSup=0.3)。 
表 8 不 同 minSup 值 下 ， 各 种 算法 获得 规则 的 数量 minConf U-MFL-FAR FApriorit 初始 模糊 分 区 
(minConf=0.8)。 0.1 423 415 415 
minSup U-MFL-FAR FApriori 初始 模糊 分 区 0.2 328 312 313 
0 54 4 41 0.3 257 246 245 
02 41 31 27 0.4 172 167 167 
03 33 28 23 0.5 107 104 103 
0.4 23 17 14 U0 0 65 加 


0.5 16 9 7 0.7 44 38 38 


录用 稿 


0.8 33 28 23 
0.9 3 4 4 


分 析 这 些 结果 可 以 看 出 ，U-MFL-FAR 提取 出 了 较 多 的 
FAR, 其 数量 大 于 或 等 于 FApriori 算法 和 初始 模糊 MF 所 获得 
的 FAR 的 数量 ， 从 而 获得 一 组 合理 的 FAR。 其 中 ，FApriori 
算法 使 用 模糊 先 验 挖掘 算法 从 初始 模糊 分 区 中 挖掘 FAR， 而 本 
文 使 用 了 U-FFP-growth 方法 来 挖掘 初始 模糊 分 区 中 的 FAR。 
显然 ，U -FFP-8rowth 算法 比 FApriori 算法 更 有 效 ， 这 是 天 
为 U-FFP-growth 是 基于 频繁 模式 树 结构 。 
因此 可 以 得 出 结论 ， 当 不 调整 隶属 函数 时 ， 规 则 的 数量 会 
减少 。 对 于 高 支持 度 的 规则 , MF 优化 操作 的 效果 更 加 显 着 。 例 
如 ， 初 始 模糊 分 区 中 没有 执行 MF 学 习 ， 则 没有 挖掘 出 支持 度 
高 于 0.8 的 规则 。 


6 ”结束 语 


本 文 提出 了 一 种 新 的 不 确定 数据 模糊 规则 挖掘 算法 , 称 为 
U-MFL-FAR 。 通 过 自 适 应 学 习 合适 的 MF ， 最 大 限度 地 提高 
了 MF 的 支持 度 和 解释 性 度量 ， 并 提出 了 一 种 基于 FFP-growth 
算法 的 新 算法 U-FFP-growth ， 从 不 确定 数据 中 挖掘 有 用 的 
FAR。 通过 实验 结果 表明 , ME 的 优化 过 程 使 本 文 能 够 挖掘 出 更 
加 相关 的 FAR。 此 外 ， 使 用 可 解释 性 度量 GM3M 可 以 避免 原 
始 MF 发 生 较 大 的 改变 ， 在 大 多 数 情 况 下 保留 了 原始 的 语义 解 
释 性 。 另 外 ， 采 用 了 三 元 组 语言 表示 来 大 大 减少 优化 过 程 中 的 
搜索 空间 。 
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